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摘 E: 在 开源 社区 中 ， 开 发 者 提出 的 问题 能 否 得 到 快速 与 高 质量 的 答复 和 解决 决定 着 社区 的 活跃 程度 。 因 此 ， 为 
新 提交 的 问题 寻找 和 推荐 合适 的 问题 解决 参与 者 有 助 于 社区 的 发 展 。 根 据 开 发 者 之 间 的 协作 关系 记录 与 开发 者 参与 
问题 的 记录 构建 了 双 层 图 注意 力 网 络 的 问题 解决 参与 者 推荐 模型 (GAT-UCG)。 首 先 获取 问题 参与 者 的 信息 和 开发 者 
的 互动 信息 ， 分 别 构建 开发 者 问题 参与 图 和 开发 者 协作 关系 图 ， 通 过 注意 力 机 制 对 于 边 重 新 分 配 权重 ， 最 后 根据 输 
出 层 得 到 的 问题 节点 髓 入 表示 进行 问题 参与 者 的 Top-N 推荐 。 选 取 了 Github 流行 仓库 中 的 7352 个 问题 进行 了 实验 ， 
实验 结果 表明 ， 所 提出 的 GAT-UCG 模型 在 推荐 准确 率 、 召 回 率 、F-Score 三 个 指标 上 均 优 于 基线 方法 。 
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x : Abstract: In the Open Source Community, it's essential to find and recommend suitable participants for newly initiated issues 
> in order to solved the issues and develop the community. This paper proposed to construct a two-layer Graph Attention 
Network Participant Recommendation Model (GAT-UCG) based on the cooperative relationship records and the historical 
participated issues records of the developers. The method used to construct the model is obtaining the information of the 
problem participants and the interaction information of the developers first, and building the developer problem participation 


graph and the developer collaboration relationship graph respectively, then redistributing the weights to the edges through the 
attention mechanism, finally, figuring the Top-N recommendation of the problem participants according to the Issue node 
embedding representation obtained by the output layer. There are 7, 352 issues from popular Github repositories for 
experiments. The results showed that the GAT-UCG model outperforms the baseline method in three indicators: 
recommendation accuracy, recall, and F-Score. 
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0 az Zhou 等 人 采用 结构 方程 模型 (SEM) 分 析 发 现 ， 在 开源 社 
a 区 中 社会 认同 是 决定 开源 社区 用 户 知 识 贡 献 的 主要 因素 外; 
在 现代 开源 软件 开发 过 程 中 ， 开 源 社区 为 开源 软件 的 Morris 等 人 研究 发 现 许多 问题 都 是 被 联系 紧密 的 朋友 解决 的 ， 


发 者 们 提供 了 一 个 高 效 的 合作 平台 ， 例 如 ，Github 作为 全 球 ”并 且 联 系 的 紧密 程度 影响 着 开发 者 参与 问题 的 积极 性 3。 所 
最 大 的 开源 社区 平台 ， 吸 引 了 世界 各 地 的 开发 者 参与 开发 。 以 将 开发 者 之 间 的 协作 关系 纳入 推荐 模型 ， 其 结果 有 助 于 提 

为 了 让 开发 者 更 便捷 的 进行 开源 项 目的 交流 ， 每 个 人 都 。 升 开 发 者 知识 贡献 的 意愿 , 从 而 更 好 、 更 快 的 解决 问题 .19， 
可 以 在 开源 社区 中 创建 问题 ， 而 问题 的 参与 者 包括 项 目 开发 目前 的 推荐 模型 大 多 根据 开发 者 的 专业 技能 等 信息 进行 推荐 ， 
团队 的 核心 成 员 或 是 对 该 问题 感 兴趣 的 外 部 贡献 者 。 在 开源 ” 部 分 工作 中 虽然 考虑 了 问题 提出 者 与 开发 者 之 间 的 关系 ， 但 
社区 中 , 经 常会 有 大 量 的 问题 等 待 开发 者 进行 回复 和 解决 由。 ”是 这 些 模型 中 考虑 的 是 直接 社交 关系 的 影响 t,!， 没 有 能 够 
将 推荐 技术 应 用 到 开源 社区 的 问题 解决 过 程 中 ， 为 每 个 问题 ”反映 社交 关系 对 开发 者 参与 积极 性 产生 的 潜在 的 、 复 杂 的 作 
推荐 问题 解决 过 程 的 参与 者 ， 能 有 助 于 提高 问题 解决 的 速度 ， 所 以 本 文 设计 了 一 个 基于 图 注意 力 网 络 的 问题 参与 者 推 
与 质量 ， 进 而 促进 社区 的 协作 与 发 展 ®3。 荐 模型 ， 引 入 用 户 协 作 关系 图 以 提升 推荐 的 效果 。 

近年 来 ， 许 多 学 者 提出 了 不 同 的 方法 ， 这 些 方法 从 开发 本 文 的 主要 工作 如 下 : 根据 开源 社区 开发 者 协作 的 特点 ， 
者 画像 、 开 发 者 过 去 解决 问题 的 特征 ， 待 解决 问题 的 特征 &53 将 开发 者 协作 关系 信息 和 开发 者 问题 参与 信息 与 图 注意 力 网 
等 方面 进行 问题 参与 者 的 推荐 。 络 相 结合 ， 构 造 了 一 个 双 层 图 注意 力 网 络 模型 ， 其 中 包括 开 
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发 者 之 间 E e 问题 解决 的 过 程 中 起 着 重要 的 作用 。 


o 本文 在 Github 上 的 流 
vod AE 


选取 了 7352 个 问题 - 
提出 的 GAT-UCG 模型 


发 者 协作 网 络 ， 本 文 根 据 开发 者 之 间 的 评 


窒息 与 开发 者 参 与 问题 的 记录 ， 设 计 了 一 个 双 层 图 注意 力 
型 (GAT-UCG)， 模 型 的 整体 结构 如 图 1 所 示 。 
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图 1 GAT-UCG 整体 结构 图 
Overall Architecture of GAT-UCG 


inea AREA ined 与 问题 解决 的 重要 性 


， 本 文 在 Github 上 选取 了 两 个 流行 仓库 
ln 的 数据 进行 分 析 。 
库 中 选取 特定 时 间 段 内 的 Issue 作为 源 数据 ， 
份 划 定 每 月 用 户 社交 数据 并 以 第 一 个 月 的 数据 为 用 
ea, 将 后 面 月 份 的 互动 数据 与 基准 互动 数据 


上 系统 存在 泛 化 能 力 关 kic 


源 社区 中 历史 合作 过 的 关系 在 新 问题 讨论 


推荐 算法 ， pd 等 人 所 


才 间 段 里 用 户 互 动 列表 中 历史 上 曾 互动 过 的 
其 中 本 文 将 曾 互动 过 的 行为 定义 为 用 户 双 方 曾 


ERGEBEN TIK, 


A Issue 中 进行 过 评论 行为 ， 分 析 结 果 如 表 1 所 示 。 
表 1 tensorflow, Kubernetes 仓库 中 社交 关系 统计 表 


Statistics of social relationships of tensorflow and Kubernetes 


Th 


习 推荐 方法 ， 通 过 多 层 的 图 闪 
虽然 图 卷 积 神经 网 络 (GCN) 外 
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f£ 5X (Transductive) 的 | 性 质 3 
。 为 了 提升 GCN 扩 


IV 


naX 


| 


的 ， 需 要 对 于 开发 者 
Veličković 等 人 提出 基于 
过 引入 注意 力 机 制 | 


神经 网 络 (GAT)， 通 


ly 针对 图 神经 网 络 模型 的 改进 方法 ， 


GNNs trim 


络 架构 (GraphRec)， 使 用 注意 


time bucket interaction 

in historical proportion 
3/22/2020-4/30/2020 5354 \ \ 
4/30/2020-5/31/2020 2434 526 21.61% 
5/31/2020-6/30/2020 1576 402 25.50% 
6/30/2020-7/31/2020 1474 438 29.71% 
12/28/2020-1/31/2021 4724 \ \ 
1/31/2021-2/28/2021 3812 1902 49.8995 
2/28/2021-3/31/2021 4756 2744 57.69% 
3/31/2021-4/30/2021 2968 1824 62.06% 
4/30/2021-5/3 1/2021 2482 1592 64.14% 
5/31/2021-6/30/2021 2044 1420 69.47% 
6/30/2021-7/30/2021 1278 864 67.60% 


从 表 1 可 以 看 出 ， 在 kubernetes 仓库 中 ， 在 以 一 个 月 为 
， 平 均 曾 互动 过 的 比例 占 该 月 总 互动 数目 的 
Æ tensorflow 社区 中 也 存在 一 定 比例 的 历史 互动 。 


图 zh 


ee 户 与 pd 
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分 析 结果 表明 ， 开 


发 者 与 曾 互动 过 的 人 一 起 参与 新 问题 的 讨 


论 这 一 现象 十 分 普遍 ， 并 且 随 着 时 间 的 推进 ， 这 一 比例 稳步 
上 高， 体现 出 开发 者 之 间 的 协作 网 络 逐 渐 扩 大 ， 所 以 将 开发 


者 之 间 的 历史 合作 


评论， ARDERE 竺 征 
重 并 进行 节点 特征 色 


22 多 注意 力 头 的 图 注意 力 层 


言 息 纳入 考虑 有 助 于 提升 问题 参与 者 推荐 


提问 者 的 主题 和 疑问 所 对 应 


图 注意 力 层 作为 GAT-UCG 模型 的 基本 单 


页 标签 M HH Ha R3 e 73 p: RU ec Rf 


图 2 所 示 。 该 层 的 输入 数据 为 一 组 节点 特 


元 ， 其 基本 结构 如 


他 模型 相 比 ， 本 文 的 模型 对 协 


pex .Bekr ,其 中 N 代表 节点 的 数量 ， 严 代表 每 


an 


ERRET Y SES ATL T R 
基于 图 注意 力 网 络 的 问题 参与 者 推荐 


- [rris ncpa enn 。 为 了 充分 的 将 输入 特征 转换 为 高 阶 的 


。 每 一 层 模型 的 输出 为 一 组 节点 的 新 特征 ， 


嵌入 表示 ， 在 每 个 图 注意 力 层 中 ， 在 节点 的 计算 中 引入 自 注 


煞 据 进行 分 析 ， 验 证 


意 力 (self-attention) 机 制 ， 输 入 特征 的 计算 如 式 (1)(2) 所 示 。 
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录用 定稿 


e; = LeakyReLU (a" [Wa |W,, |) (1) 


exp(e;) 
b exp(ex) 2) 


N, 为 图 


a = softmax; (ej) 对 


Hrp. P758 ABE 
G 中 节点 i 的 一 阶 邻 

所 以 ， 注 意 力 层 输 出 的 嵌入 表示 PeR 计算 公式 如 式 
(G3) 所 示 。 


RI, WERE 为 权重 矩阵 ， 


mH 


n=o Zawa, | (3) 


ErhH hj 


x 


为 了 能 够 获得 稳定 的 自 注意 力 (self-attention) 结 果 ， 采 用 
玉 个 独立 的 注意 力 头 进行 计算 ， 之 后 将 它们 的 计算 结果 进行 
串联 ， 其 中 在 最 后 一 层 ， 为 了 减少 输出 特征 向 量 的 维度 ， 将 
拼接 操作 蔡 换 为 平均 操作 ， 如 式 (4)(5) 所 示 。 


Ro Xen (4) 
jeN; 
= Ups 
Pi= ov] (5) 
k=l jeN; 


其 中 ，| 表 示 将 特征 进行 串联 操作 ，K 代表 多 注意 力 头 的 数 
目 ， 史 代表 由 第 大 个 注意 力 头 计算 的 注意 力 系数 ， 死 5 代表 对 
应 输入 的 线性 变换 权重 矩阵 。 使 用 多 注意 力 机 制 可 将 注意 力 
分 配 到 中 心 节 点 与 邻居 节点 之 间 的 相关 特征 上 ， 可 使 模型 的 
学 习 能 力 更 强 。 
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图 2 图 注意 力 网 络 结构 
Fig.2 Graph attention network architecture 
2.3 开发 者 协作 图 的 权重 传播 
开发 者 协作 图 层 主要 负责 进行 开发 者 之 间 权 习 
文 将 用 户 协 作 图 定义 为 一 个 带 权 重 的 有 站 
Goc =(Vo Eo Wo), RPR V 表示 开发 者 集合 ， 节 点 之 间 的 


n 
ER 
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轴 于 图 G , 图 G 为 输入 图 ，o 为 非 线 性 的 激活 函数 。 
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示 ， 如 果 开 发 者 Vo; 至 少 评论 了 问题 VW 一次， 那么 从 Vo; 到 
就 会 有 一 条 边 &。 权 重 集 合 W 反映 了 边 的 重要 程度 ， 本 文通 
过 注意 力 机 制 来 对 开发 者 与 问题 之 间 边 的 权重 进行 学 习 , 使 
用 % 表示 VV 之 间 边 的 权重 大 小 。 开 发 者 -问题 参与 图 注意 
力 机 制 的 输出 如 式 (7) 所 示 。 


— exp(LeakyReLU (a' [W, || W,, ])) 
Pi -x m exp( LeakyReLU (a* [W,, LA » "n 0) 


其 中 ，m AT ARGECH ERHUHANGEIR. p: ZR UTE ex HU UN e 
示 ， Na 为 问题 节点 的 一 阶 邻 居 节 点 。 

4 显示 了 开发 者 -问题 参与 图 中 的 一 部 分 示例 , 如 开发 
者 ppi, poz,Pps, 参与 了 问题 pn 的 讨论 , 因此 Pos Poss Pos 到 pn 
分 别 有 一 条 边 ， 其 分 别 为 0.09.05 o 


[14 


O14 Q15 


图 3 开发 者 协作 关系 图 示例 


Fig.3 Anexample of developer cooperation graph 


44 开发 者 -问题 参与 图 示例 

Fig.4 An example of Developer-Issue participation graph 
2.5 模型 预测 和 优化 

为 了 学 习 模 型 参数 ， 使 模型 可 以 更 好 的 建 模 问 题 与 开发 
者 之 间 的 特征 。 本 文采 用 LogSofimax 进行 问题 解决 参与 者 的 预 
测 ， 预 测 层 输出 如 式 (8) 所 示 。 


exp(a;) 
Rus iD MEE 8 
Da epla) m 


其 中 ， 0,,05,05,...,Qc 是 问题 节点 I 的 特征 ， pi 为 该 问题 节点 I 


p; -log 


关系 集合 用 边 Es 表示， 如 果 开 发 者 Vo 至少 评 论 或 引用 了 7 
发 者 Vw 提交 的 一 个 问题 或 回复 ， 那 么 从 开发 者 Vo 到 开发 者 
Vo 之 间 就 会 有 一 条 边 4。 本 文通 过 正则 表达 式 来 提取 文本 中 
的 @ 行 为 、 引 用 他 人 评论 等 行为 ， 获 得 开发 者 之 间 的 协作 关 
系 。 权 重 集合 W 反映 了 边 的 重要 程度 ， 本 文通 过 图 注意 力 机 

进行 边 的 权重 进行 学 习 ， 使 用 % RIR VoVo 之 间 边 的 权 


—H 


m 


重 。 开 发 者 节点 的 远 入 表示 通过 该 开发 者 历史 参与 问题 的 标 
签 进行 Multi-hot 编码 得 到 。 开 发 者 协作 图 注意 力 机 制 的 输出 
如 式 (6) 所 示 。 


e exp(LeakyReLU (a? [W,, Il Wps o» 
Po Tt, Ya, eb (LeatoReLU (a [W,, |W,,] 


其 中 ， Pow,pw 分 别 表示 开发 者 节点 ij RARR, 
发 者 节点 的 一 阶 邻 居 节 点 。 
图 3 显示 了 开发 者 协作 图 中 的 一 部 分 示例 ,如 开发 者 pp 
与 开发 者 pos 存 在 协作 关系 ， 因 此 Pos 到 Po 有 一 条 边 , 其 权重 
为 Qas o 
24 开发 者 -问题 参与 图 的 权重 传播 
本 文 将 开发 者 -问题 参与 图 定义 为 Co - (Vi Vo Ero. W,) > 

该 图 为 二 分 图 。 其 中 顶点 V 表示 问题 集合 ,顶点 Vo 表示 开发 
者 集合 ， 问 题 节点 与 开发 者 节点 之 间 的 关系 集合 用 边 E K 


) L3 (6) 


Ni NF 


Yr 


应 该 被 分 配给 开发 者 i 的 概率 ， 通 过 上 式 可 以 获得 该 问题 节 
点 工分 配给 每 个 开发 者 的 概率 ， 根 据 概率 的 高 低 进行 排序 ， 
推荐 Top-N 的 问题 解决 参与 者 。 使 用 LogSoftmax 能 够 加 快 模型 
运算 的 速度 ， 提 高 数据 的 稳定 性 。 模 型 采用 梯度 下 降 法 训练 
更 新 模型 参数 。 


3 ”数据 及 实验 


3.1 问题 及 用 户 评论 数据 
本 文 在 Github 上 选择 了 两 个 流行 仓库 (tensorflow、 
kubernetes) 作 为 实验 数据 。 通 过 Github API 获得 了 仓库 特定 
时 间 段 内 的 Issue 信息 ， 包 含 Issue 的 标签 以 及 所 有 参与 该 问 
题 的 用 户 信息 ， 共 获取 了 7352 条 Issue 以 及 58814 条 评论 行 
为 ， 数 据 集 见 表 2。 

3€ 2 tensorflow, kubernetes 数据 集 


Tab.2  Datasets of tensorflow and kubernetes 


Repo issue comment developer label attributes time bucket 


tensorflow 2459 13067 497 79 
kubernetes 4893 | 45747 896 121 


3/22/2020-7/28/2020 
12/28/2020-7/30/2021 


3.2 评测 指标 
为 了 验证 算法 的 性 能 , 采用 召回 率 、 精确 率 和 FF-Score 作 
为 评价 的 指标 ， 推 荐 结果 的 召回 率 计 算 方式 如 式 (9) 所 示 。 
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其 于 多 注意 力 头 的 图 注意 力 模型 相 比 基 
力 网 络 模型 能 稳定 传播 邻居 节点 信息 


EA 
E KE o 


q 
" 
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4 HEr 0 
issue, | . : PE IEJ 8.57%, XE 
RNT TER » 
Recall = 2 (OTT OO (9) 注意 力 头 的 图 注 ; 
ee 提升 模型 的 推荐 性 
着 结果 的 精确 率 计算 方式 如 式 (10) 所 示 。 *4 ^R 


Issue], p, p. , 
a4 RONTE) 
La PONTO (10) 


Za GI 
推荐 结果 的 F-score 值 计 算 方式 如 式 (11) 所 示 。 


precision* recall 


Precision = 


F —score = 2: ——————————— 
precision + recall a D 


其 中 1ssue, 表示 问题 的 测试 集 , R(i) 表示 根据 开发 者 在 训练 集 
上 的 行为 作出 的 Top-N 推荐 列表 ,7(i) 表 示 实 际 参 与 问题 的 用 
户 列表 。 
3.3 ”实验 设置 

本 文 在 Python3.8, Pytorchl.9.0, Cudall.4, RTX3090 环 
境 下 完成 GAT-UCG 与 基线 算法 的 对 比 实验 。 在 实验 中 ， 按 
照 8:1:1 的 比例 划分 数据 集 来 构造 训练 集 、 验 证 集 和 测试 集 ; 
GAT-UCG 模型 超 参数 的 设置 如 表 3 所 示 。 将 模型 默认 的 训 
练 轮 次 (epochs) 设 置 为 2000， 并 且 当 验证 集 上 的 评测 指标 在 
100 轮 内 没有 变化 时 提前 结束 训练 。 基 线 方 法 GAT 和 GCN 
中 的 从 入 维度 、 学 习 率 、 批 处 理 大 小 和 注意 力 头 数目 与 GAT- 
UCG 模型 相同 ， 其 他 超 参数 默认 与 原始 论文 或 代码 一 致 。 实 
验 目标 是 为 测试 集中 的 每 个 问题 推荐 排名 靠 前 的 N 个 开发 
者 , 并 使 用 Recall@N .PrecisionN, F-ScoreN 三 个 指标 
来 衡量 各 模型 的 性 能 。 

表 3 模型 的 超 参 数 设 置 

Tab.3 Hyperparameter setting of model 


A 


yit 


超 参 数 名 称 参数 值 
问题 、 开 发 者 嵌入 维度 237(tensorflow tt [X /363(kubernetes 社区 ) 
FJR 0.005 
隐藏 层 数目 8 
注意 力 头 数目 8 
Drop out Rate 0.6 
L2 正则 项 系数 Se-4 


3.4 ”消融 实验 
为 了 评估 图 注意 力 层 中 多 注意 力 头 的 有 效 性 以 及 贡献 ， 
本 节 进 行 了 消融 实验 分 析 了 单 注 意 力 头 与 多 注意 力 头 。 根 据 
统计 ， 在 本 文选 取 的 两 个 流行 仓库 中 ，99.79% 的 问题 参与 人 
数 在 10 位 及 以 下 ， 所 以 将 推荐 的 列表 长 度 限制 在 10 人 以 内 进 
行 Top-N 的 问题 参与 者 推荐 的 召回 率 评 估 ， 结 果 如 表 4 所 示 。 
为 了 更 加 清晰 的 显示 性 能 的 差别 ， 将 表 4 转换 成 图 S 的 
形式 。 消 融 实验 结果 显示 ， 基 于 多 注意 力 头 的 图 注意 力 网 络 
模型 相 比 基于 单 注意 力 头 的 图 注意 力 网 络 模型 在 tensorflow 
和 kubernetes 两 个 仓库 的 问题 参与 者 Top-N 的 推荐 召回 率 平 


表 5 不 同 算法 Top-N 推荐 的 召 


注意 力 头 数 Top-N 推荐 的 召 


Tab.4 Recall rate of Top-N recommendations 


with different numbers of heads 


TR 


图 5 单 、 多 注意 力 头 模型 Top-N 推荐 的 召 


Repo attention head 2 4 6 8 10 
Multi 39.67% 48.29% 52.85% 55.59% 58.8996 
tensorflow . 
Single 27.6695 39.07% 44.43% 46.8296 51.7896 
Multi 45.0196 56.16% 61.18% 64.0596 66.0496 
kubernetes . 
Single 34.55% 46.35% 53.29% 57.29% 60.77% 
tensorflow 
80 
-m- Multi attention heads 
70 -&- Single attention head 
60 -a 
Dee m ET 
f3 i » um a7 € 
T40 Cia maT 
e 
30 "2d 
20 
10 
0 
2 4 6 8 10 
top-N 
kubernetes 
80 
-m- Multi attention heads 
704 -&- Single attention head 
----- m0 
60]. 7 0 ue 本 A 
Aa O 2-- 证“ 
2T 
50 4 2-7 
Ei zu qa 
m 40 
E "s 
30 
204 
104 
0 
2 4 6 8 10 
top-N 


I 


Fig.5 Recall rate of Top-N recommendations of 


single and multi-head attention models 


3.5 实验 结果 
居 消 融 实验 的 结果 ， 本 文 将 多 注意 力 头 的 机 制 应 用 到 


A 
EJ 


GAT-UCG 模型 中 ,本 文 比较 了 不 同 的 方法 在 推荐 Top-2 Top- 
4、Top-6、Top-8、Top-10 个 参与 者 时 的 推荐 性 能 ， 实 验 结果 
如 表 5~7 所 示 。 

在 表 5~7 中 ， 第 


行 是 本 文 所 提出 的 基于 开发 者 协作 图 


和 问题 参与 图 的 双 层 


(GCN) 模 型 2 。 第 中 
(SNH. EITE 


和 注意 力 网 络 (GAT-UCG) 模 型 。 第 二 行 
是 图 注意 力 网 络 (GAT) 模 型 20。 第 三 行 是 图 卷 积 神经 网 络 


] 


行 是 基于 开发 者 社交 网 络 的 用 户 画 像 模 


AE 


H 
e 


T ARPEA RE RS VP SEDE RU (MF) UI, 


Tab.5 Recall rate of Top-N recommendations of different methods 


Repo baseline 2 6 8 10 
GAT-UCG 39.67% 48.29% 52.85% 55.59% 58.89% 
GAT 16.14% 28.32% 36.80% 43.65% 45.92% 
tensorflow GCN 11.63% 20.68% 28.28% 33.36% 36.68% 


基于 社交 网 络 的 用 户 画 像 (SN) 
基于 矩阵 分 解 的 协同 过 滤 算 法 (ME) 
GAT-UCG 
GAT 
kubernetes GCN 
甘于 社交 网 络 的 用 户 画 像 (SN) 
基于 矩阵 分 解 的 协同 过 滤 算 法 (MPF) 


22.69% 26.10% 28.93% 30.54% 31.39% 
5.11% 14.82% 21.45% 24.82% 25.52% 
45.01% 56.16% 61.18% 64.05% 66.04% 
28.70% 39.59% 45.27% 49.10% 51.27% 
12.18% 22.17% 29.11% 35.21% 37.27% 
18.04% 21.08% 23.41% 25.58% 26.22% 


4.22% 8.31% 


12.08% 14.98% 17.13% 
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表 6 不 同 算法 Top-N 推荐 的 精确 率 
Tab.6 Precision rate of Top-N recommendations of different methods 
Repo baseline 2 4 6 8 10 
GAT-UCG 39.8096 24.22% 17.62% 13.94% 11.42% 
GAT 16.20% 14.23% 12.30% 10.95% 9.21% 
tensorflow GCN 11.67% 10.37% 9.45% 8.36% 7.36% 
车 于 社交 网 络 的 用 户 画 像 (SN) 25.3996 14.0796 9.9096 7.57% 6.10% 
AE FAE RES NERI ED Fe] SEIS AMF) 12.84% 12.56% 10.78% 8.93% 8.87% 
GAT-UCG 53.05% 33.10% 23.86% 18.71% 15.42% 
GAT 33.30% 22.97% 17.51% 14.24% 11.90% 
kubernetes GCN 14.13% 12.86% 11.26% 10.21% 8.65% 
基于 社交 网 络 的 用 户 画 像 (SN) 18.9296 12.3096 8.6196 6.74% 4.714% 
EFE IE A EIE 8 SEDE SETS (MF) 8.41% 8.21% 7.95% 7.42% 6.64% 
表 7 不 同 算法 Top-N 推荐 的 F-score 
Tab.7  F-scores of Top-N recommendations of different methods 
Repo baseline 2 4 6 8 10 
GAT-UCG 39.73% 32.26% 26.43% 22.30% 19.02% 
GAT 16.17% 18.94% 18.43% 17.51% 15.34% 
tensorflow GCN 11.64% 13.81% 14.16% 13.36% 12.26% 
基于 社交 网 络 的 用 户 画 像 (SN) 23.96% 18.2896 14.7596 12.1396 10.2296 
E FAE RESNE HI P EL RETE SET (MF) 7.3196 13.59% 14.34% 13.13% 13.16% 
GAT-UCG 48.70% 41.65% 34.33% 28.96% 25.01% 
GAT 30.82% 29.25% 25.25% 22.08% 19.32% 
kubernetes GCN 13.08% 16.27% 16.24% 15.82% 14.04% 
基于 社交 网 络 的 用 户 画 像 (SN) 18.47% 15.54% 12.59% 10.67% 8.03% 
基于 算 阵 分 解 的 协同 过 滤 算 法 (MF) 5.62% 8.26% 9.59% 9.92% 9.57% 
3.6 结果 分 析 ed tensorflow 
为 了 直观 地 表示 结果 ， 分 别 将 表 5-7 转换 成 图 6~8 的 形 zi "ode 
式 。 实 验 结果 显示 ， 本 文 所 提出 的 GAT-UCG 推荐 模型 在 实 N M 
验 的 两 个 仓库 上 的 推荐 效果 都 比 对 比 的 四 个 算法 的 效果 要 好 。 一 一 


其 中 , 在 tensorflow CEE, 本 文 所 提出 的 方法 召 


50 4 


n| 


率 最 多 提升 


Precision rate 
è 


了 39.61%, fE kubernetes 仓库 上 ， 召 回 率 最 多 提升 了 54.61%. 
tensorflow 307 
80 
204 
70 4 
104 
60 
so | "3 H 6 H 1o 
g top-N 
Ea0 
$ kubernetes 
a 80 
90 -N- GAT-UCG 
204 7 2: end 
= 村 = SN 
104 $97 -s- MF 
0 g 501 
2 4 6 8 10 S 
top-N S 40 
kubernetes E 
#9 & 304 
-E- GAT-UCG 
Pen d —— 0 zm P 204 
MIB L.-m---777777 @ 
-w- MF a 10 
udi Mud 2-7 * 0 r r ， 
g u^ E aadi 2 4 6 8 10 
x 01 P c ea m top-N 
ac 图 7 不 同方 法 下 参与 者 推荐 精确 率 比 较 
204 I. cures X877 u Fig. 7 Comparisons of precision rate of different methods for 
10. mem P -------- md participant recommendation 
TE. | | 比较 所 提出 的 模型 和 数据 集 的 不 同 结果 ， 有 以 下 的 观察 
í ep 和 结论 : 
图 6 不 同方 法 下 参与 者 推荐 召回 率 比 较 (1) 基 于 图 神经 网 络 的 模型 在 大 部 分 实验 结果 上 要 优 于 
Fig.6 Comparisons of recall rate of different methods for 基于 矩阵 分 解 和 基于 社交 网 络 的 传统 模型 。 这 说 明 图 神经 网 
participant recommendation 络 模型 能 够 很 好 的 挖掘 开发 者 协作 关系 和 兴趣 偏好 的 特征 。 
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(2) 在 基于 图 神经 网 络 的 模型 中 , 将 开发 者 协作 信息 与 开 
发 者 -Issue 参与 信息 进行 综合 考虑 相 比 于 只 利用 开发 者 -Issue 
参与 信息 的 模型 可 以 获得 更 好 的 问题 参与 者 推荐 性 能 。 

(3) 比 较 两 个 实验 数据 集 上 的 实验 效果 ,图 神经 网 络 模 型 
在 kubernetes 仓库 的 数据 上 收 到 了 最 优 的 效果 , kubernetes 仓 
库 有 更 多 的 用 户 数目 、 互 动 数 和 标签 特征 数 ， 这 表明 图 的 内 
FRET, WA 的 信息 越 多 ， 实 验 效 果 越 好 。 因 此 ， 当 
将 所 提出 的 模型 应 用 于 更 大 的 数据 集 时 ， 其 效果 更 加 明显 。 

(4) 基 于 社交 网 络 的 用 户 画 像 模 型 在 tensorflow 仓库 
Top-2 的 推荐 效果 相 比 于 基于 图 注意 力 网 络 的 推荐 效果 更 好 ， 
是 由 于 tensorflow 仓库 参与 人 员 更 为 固定 并 且 标 签 类 型 更 少 
导致 基于 社交 网 络 能 在 推荐 人 数 较 少 的 情况 下 效果 更 好 。 此 
情况 在 参与 人 数 更 多 、 标 签 更 丰富 的 kubernetes 仓库 中 并 不 
明显 。 实 验 结果 显示 , 在 tensorflow 仓库 中 ， 从 Top-4 开始 ， 
图 注意 力 网 络 模型 的 推荐 性 能 开始 超过 基于 社交 网 络 的 用 
画像 模型 ， 说 明 图 神经 网 络 模型 能 更 好 的 适应 复杂 的 情况 。 
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图 8 不 同方 法 下 参与 者 推荐 F-score 比较 


Fig.8 Comparisons of F-scores of different methods for 


participant recommendation 
4 ARA 


本 文通 过 深入 分 析 已 有 的 问题 参与 者 推荐 方法 ， 提 日 
种 基于 图 注意 力 网 络 的 问题 解决 参与 者 推荐 模型 并 详细 
述 了 设计 的 模型 。 本 文选 取 了 Github 上 流行 仓库 的 数据 进行 
实验 ， 使 用 Precision, Recall 和 F-Score 作为 模型 的 评估 所 
标 ， 将 本 文 所 提出 的 推荐 模型 与 GAT、GCN、SN 和 MF 进 
行 对 比 ， 实 验 结果 表明 本 文 提出 的 推荐 模型 在 数据 集 上 的 指 
标 均 优 于 基线 算法 ， 可 以 有 效 的 推荐 问题 参与 者 。 同 时 ， 本 
文 的 模型 引入 了 开发 者 之 间 的 协作 关系 ， 可 以 更 好 的 根据 开 
发 者 的 社交 关系 进行 推荐 。 
本 文 的 工作 还 有 不 少 可 拓展 的 地 方 ， 例 如 在 本 文中 选取 
问题 的 标签 作为 问题 的 描述 特征 ， 然 而 ， 在 实际 中 还 有 许多 
问题 来 不 及 打 标 签 或 者 标签 不 全 等 问题 。 在 未 来 的 工作 中 ， 
可 以 考虑 将 更 多 的 问题 特征 纳入 考虑 ， 以 提高 问题 参与 者 扒 
荐 模型 的 性 能 。 
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